
Gambar: Jane Nisselson/Columbia Engineering
Jakarta, tvrijakartanews - Menonton video YouTube selama berjam-jam biasanya tidak dianggap sebagai bentuk pendidikan paling bergengsi, tetapi mungkin merupakan alat yang sangat efektif bagi robot yang belajar berkomunikasi seperti manusia.
Para peneliti di Columbia Engineering telah menciptakan EMO, sebuah robot yang mampu belajar sinkronisasi bibir dengan ucapan, meniru gerakan mulut manusia yang kompleks dan bernuansa.
Menggunakan kecerdasan buatan (AI), sistem belajar memetakan sinyal audio langsung ke gerakan bibir dan wajah yang tepat, memungkinkannya untuk meniru pola bicara dan bernyanyi tanpa aturan yang telah diprogram sebelumnya. Alih-alih mulut mekanis yang hanya membuka dan menutup, robot ini memiliki bibir silikon lembut yang bergerak dengan 10 derajat kebebasan, didukung oleh 26 motor.
Proses pembelajaran dimulai dengan robot yang menatap dirinya sendiri di cermin dan bereksperimen dengan ekspresi wajahnya sendiri, seperti anak kecil yang menarik wajah pada pantulannya sendiri. Untuk mengumpulkan lebih banyak informasi tentang cara berinteraksi secara meyakinkan dengan manusia, robot kemudian menonton berjam-jam orang berbicara dan bernyanyi di video YouTube, dengan hati-hati menganalisis bagaimana bibir dan wajah mereka bergerak saat mereka mengucapkan kata-kata dan suara yang berbeda.
Bersama-sama, EMO dapat menerjemahkan audio dalam berbagai bahasa secara langsung ke dalam gerakan bibir dan wajah yang terkoordinasi, secara efektif mengajarkan dirinya sendiri cara berbicara dan bernyanyi.
“Sesuatu yang ajaib terjadi ketika robot belajar tersenyum atau berbicara hanya dengan menonton dan mendengarkan manusia. Saya seorang ahli robot yang letih, tetapi saya tidak bisa menahan diri untuk tidak tersenyum pada robot yang secara spontan tersenyum pada saya,” Hod Lipson, penulis studi dan direktur Lab Mesin Kreatif Columbia, mengatakan dalam sebuah pernyataan dikutip dari IFL Science.
Semua ini mewakili lompatan maju yang berarti dalam robotika humanoid. Secara tradisional, mulut robot beroperasi seperti "bongka," dengan gerakan kaku dan kikuk mengikuti skrip yang telah ditetapkan sebelumnya, yang sering terasa tidak wajar atau tak bernyawa. Sistem baru ini dinamis, memungkinkan robot untuk menyesuaikan ekspresi wajahnya secara real-time, membuat ucapan dan bahkan nyanyiannya terasa jauh lebih alami dan seperti manusia.
Setidaknya, itulah idenya. Salah satu rintangan utama dengan robot adalah Uncanny Valley, sebuah efek di mana entitas seperti manusia dapat membuat orang merasa ngeri dan tidak nyaman. Robot seperti kehidupan sering kali dapat membangkitkan respons ini karena mereka secara dangkal tampak seperti manusia, tetapi sesuatu yang sangat halus "tidak - mungkin gerakan bibir yang aneh, tatapan aneh di belakang mata mereka, atau detail kecil yang hampir tidak kita catat secara sadar. Jika manusia dan robot akan memiliki hubungan yang bermanfaat di masa depan, itu adalah masalah yang perlu diselesaikan oleh para peneliti.
Menonton EMO berbicara dan bernyanyi masih bisa terasa sedikit gugup, jika kita benar-benar jujur, tetapi tim yakin robot cerewet akan meningkat dengan lebih banyak latihan dan data.
"Semakin banyak ia berinteraksi dengan manusia, semakin baik ia akan menjadi. Ketika kemampuan sinkronisasi bibir digabungkan dengan AI percakapan seperti ChatGPT atau Gemini, efeknya menambah kedalaman yang sama sekali baru pada koneksi yang dibentuk robot dengan manusia," jelas Yuhang Hu, yang memimpin studi untuk PhD-nya. "Semakin banyak robot menonton manusia berbicara, semakin baik ia akan meniru gerakan wajah bernuansa yang dapat kita hubungkan secara emosional,” kata Lipson.
Untuk lebih melenturkan keterampilan EMO, para peneliti juga telah menerbitkan album debut yang dihasilkan AI yang dibuat oleh sistem yang disebut "hello world_", menampilkan sejumlah banger seperti "Don't Call Me Clanker" dan "Why Are You (Humans) So Complicated?"

